隐逸的骗局:为什么现实概率和理想概率总有偏差?
大家好,我是科学羊🐑,这里是数学专栏第3季第3篇。
说到前面:
科学羊今年会开始推广视频栏目,素材取于科学羊更文,预计很快正式推广,感谢趣的朋友可以关注:
视频号:【我是科学羊】
今天我们来谈谈概率论之随机事件——伯努利试验相关的问题。
作为人类好奇心的本质出发,我们一定会也终将会让一些比较有规律的事情寻找到其背后的本质和算法。
概率论中的随机性就是这样。
一个典型的例子就是抛硬币的实验:虽然理论上每一面出现的概率均为50%,但在实际操作中,连续抛掷10次硬币得到正好5次正面的概率仅约为25%,这一发现挑战了大众的直觉。
同样,当面对一个仅有10%胜率的赌局,许多人误以为进行10次尝试就足以保证一次胜利,而实际上,要达到较高的胜利把握,需要进行至少26次尝试。
这些发现不仅颠覆了我们对随机性的传统认知,也揭示了一个事实:大多数人对概率的理解存在明显偏误。
好,接下来我们来挖掘下这里面的数学原理!
丹尼尔·伯努利(德语:Daniel Bernoulli,1700年2月8日—1782年3月17日)
01 什么是伯努利试验?
在18世纪和19世纪之交,一群数学家和富有创造力的赌徒开始对随机性的本质进行深入探究。
他们一方面通过实施各种随机试验,努力发掘其中的规律性;
另一方面,通过数学推演尝试预先计算出概率,然后通过实验来进行验证。
这个过程充满了挑战,因为理论计算得出的概率与实验结果往往不匹配,这促使研究者们不断探索两者之间不一致的根本原因。
以抛硬币为例,虽然理论上正面朝上的次数应接近5次,实际上大多数情况下却很难达到这个数值,甚至达到4到6次的概率也相当低。
这种现象是否意味着硬币的两面并非完全均匀,还是仅仅因为随机性本身的偶然性导致的呢?
为了回答这些问题,法国数学家伯努利等人开展了大量的随机试验,其中最著名的便是以伯努利的名字命名的试验。
伯努利试验的美妙之处在于其极致的简约:它仅包含两种可能结果,即非此即彼,非黑即白,没有中间状态。
这种试验的关键在于,尽管A和B发生的可能性不必相等,但在相同条件下进行重复试验时,A和B发生的概率必须保持一致。
例如,从一个装有一个白球和三个红球的口袋中随机抽取一个球,抽到白球定义为事件A,抽到红球定义为事件B。
不断重复这一过程,我们期望每次抽到白球的概率保持不变。这种试验模型清晰地展示了随机性研究的一种基础方法论。
那什么不是伯努利试验呢,假如考察天气,今天的天气下雨和不下雨虽然只有两种状态,但是这两个事件出现的概率无法保持一致。
伯努利试验不仅因其简单和可重复性而具有研究价值,更重要的是,它为我们提供了一种探索随机性背后规律的有力工具。
当然,我们中学就知道,只有经过了大量随机试验才能得出统计学规律。
但是随机试验得到的结果 不等于 古典概率算出来的结论。
这是两回事。
不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果,你做其它随机试验也是如此。
比如你掷12次骰子,大约只有30%的情况它正好有两次六点朝上。这时你是否能讲,有70%的可能性要否定六点朝上的概率是1/6这个结论呢?
这里面到底哪里出了问题?这其中的关键是,如何解释真实情况和理想中的概率之间的偏差。
02 为什么理论和试验结果不一致呢?
抛10次硬币🪙,有N次正面朝上的概率分布(图来自得到)
如上图所示,如果我们把从0次正面朝上,到10次全是正面朝上的可能性都算出来,画成一个折线图,就是一个中间鼓起的曲线:
从图中可以看出,虽然5次正面朝上的可能性最大,但是只有1/4左右。
当我们仔细分析实验结果与理论预期之间的差异时,我们意识到试验次数的不足可能是导致这种不一致的主要原因。在较少的试验次数下,随机性的偶发性可能会掩盖背后的统计规律。但是,
随着试验次数的增加,这些统计规律是否会逐渐变得更加明显呢?
以进行100次抛硬币试验为例,我们会发现,在大约80%的情况下,硬币正面朝上的次数会落在40至60次之间。这一发现似乎揭示了一个有趣的现象:随着试验次数的增加,结果似乎开始向理论值靠拢。
进一步增加试验次数到1000次,我们会发现,在几乎99.9%的情况下,正面朝上的次数会位于400至600次之间。
即便是将结果的波动范围进一步缩小至450至550次,也有99.7%的概率将结果限制在此区间内,这与初次进行试验时观察到的高度随机性形成了鲜明对比。
在探讨这种伯努利试验时,我们可能会好奇,如果进行N次试验,事件A(如硬币正面朝上)会发生多少次呢?
直觉上,我们可能会认为,发生次数应该接近于总试验次数N乘以单次事件发生的概率p。
然而,现实中事件A的发生次数可以是任意值,尽管N*p次发生的可能性最高,其次是N*p+1或N*p-1次,然后可能性会向两侧递减。
将这一概率分布绘制成图形,我们得到一条中间高、两侧低的曲线,即伯努利分布或二项式分布,因为每次试验都有两种可能的结果。
随着试验次数N的增加,曲线中间的“鼓包”会变得更加突出,而两侧的概率迅速降低至几乎为零,意味着事件A发生次数极可能集中在N*p附近,其他可能性极小。
相反,如果试验次数N较少,中间的“鼓包”则显得更加平缓,两端的概率虽然较低,但并非为零,这使得准确判断事件A的发生次数变得更加困难。
由此,我们得出一个重要的结论:对于随机性背后的统计规律,只有在进行大量试验的情况下才能得到清晰的展现。
总结:
当试验次数不足时,结果更多地反映了随机性的偶然性和不确定性。这一发现不仅加深了我们对随机事件本质的理解,也强调了在研究这类事件时,进行充分多的试验的重要性。
用吴军的话说:“我们从概率论上证明了,凡事做好充足的准备,争取一次性成功,这要远比不断尝试小概率事件靠谱得多。同时涉及到随机性的问题时,只有通过大量可重复性的试验,才能看到规律性,而数量较少的试验,更多地体现出来的是随意性和偶然性,而非规律性。”
好,今天就先这样啦~
科学羊🐏 2024/02/21
祝幸福~
参考文献:
[1].《吴军数学通识讲义》
感恩遇见,喜欢的话点个【在看】,有你们的支持是我最大的动力!
往期推荐